Import modules

Initialize and load dataset

KMeans clustering with 2 features

Select 2 feature from dataset

Plotting feature with scatter plot

KMeans Clustering without WCSS evaluation

Centroid yang dipilih adalah 4, karena hasil cluster bisa dijelaskan menggunakan visualisasi.

Initialize model

Train model and predict cluster

Show cluster prediction

Visualize with scatterplot

  1. Cluster menggunakan 4 centroid.
  2. Terdapat empat cluster yang dapat dikelompokkan berdasarkan beban tagihan pengguna dalam jangka waktu tertentu.
  3. Empat cluster itu, antara lain:

KMeans Clustering with more than 2 variables and WCSS evaluation

Menggunakan 27 fitur.

Determine cluster with WCSS evaluation

Plotting WCSS

Initialize model

Add cluster predict to raw dataframe

Visualize cluster predict in 2 dimension

Visualize cluster predict in 3 dimension

Anomaly Detection with Gaussian Mixture Model

Without oversampling dataset

Initialize dataset

Determine number of cluster

Select feature and train model

Visualize Gaussian Mixture Model predict

Visualize Gaussian Mixture Model predict in 3 dimension

With oversampling dataset

Initialize dataset

Determine number of cluster

Visualize Gaussian Mixture Model predict

Jumlah anomali yang terdeteksi bertambah dengan menggunakan dataset oversampling. Anomali terjadi pada datapoin dengan monthly charges berada direntang 40-60 dollars.

Check outlier

Untuk mengecek kepastian anomali, kami mengecek distribusi tenure, monthly charges, dan total charges menggunakan box plot dan distribution plot.

Tenure

Monthly Charges

Total charges

Reference